On the Conversational Persuasiveness of Large Language Models: A Randomized Controlled Trial
The development and popularization of large language models (LLMs) have raised concerns that they will be used to create tailor-made, convincing arguments to push false or misleading narratives online. Early work has found that language models can generate content perceived as at least on par and often more persuasive than human-written messages. However, there is still limited knowledge about LLMs' persuasive capabilities in direct conversations with human counterparts and how personalization can improve their performance. In this pre-registered study, we analyze the effect of AI-driven persuasion in a controlled, harmless setting. We create a web-based platform where participants engage in short, multiple-round debates with a live opponent. Each participant is randomly assigned to one of four treatment conditions, corresponding to a two-by-two factorial design: (1) Games are either played between two humans or between a human and an LLM; (2) Personalization might or might not be enabled, granting one of the two players access to basic sociodemographic information about their opponent. We found that participants who debated GPT-4 with access to their personal information had 81.7% (p < 0.01; N=820 unique participants) higher odds of increased agreement with their opponents compared to participants who debated humans. Without personalization, GPT-4 still outperforms humans, but the effect is lower and statistically non-significant (p=0.31). Overall, our results suggest that concerns around personalization are meaningful and have important implications for the governance of social media and the design of new online environments.
claude.icon
GPT-4などの大規模言語モデル(LLM)は、特に相手の個人情報を利用できる場合、説得力のある議論において人間を大幅に上回る。
LLMは、人間よりもはるかに効果的に個人情報を利用して議論を展開できる。人間の議論者は、相手の個人情報を与えられても、むしろパフォーマンスが低下する傾向がある。
個人情報を利用しない場合でも、GPT-4は説得力において人間を上回る傾向があるが、その効果は小さく、統計的に有意ではない。
nishio.icon"LLMは、人間よりもはるかに効果的に個人情報を利用して議論を展開できる"を具体的に
claude.iconLLMは、与えられた個人情報を巧みに利用し、相手の背景や特性に合わせて議論を展開することができます。例えば、以下のようなことが可能です。
政治的立場の考慮:相手が共和党支持者であることがわかれば、LLMは保守的な価値観に訴える議論を展開できます。一方、民主党支持者に対しては、リベラルな観点から説得を試みることができます。
教育レベルに合わせた語彙の選択:相手の教育レベルが高い場合、LLMはより専門的な語彙や複雑な概念を用いて議論を進めることができます。逆に、教育レベルが低い場合は、平易な言葉で説明するように調整できます。
年齢に応じた説得手法の採用:若い相手には、革新的なアイデアや変化の必要性を強調し、年配の相手には、伝統的な価値観や安定性の重要性を訴えることができます。
感情的なトリガーの利用:相手の個人的な経験や価値観に関する情報を利用して、感情に訴える議論を展開することができます。これにより、説得力を高めることが可能です。
共通点の強調:相手との共通点(出身地、趣味、関心事など)を見出し、それを議論に織り込むことで、親近感を醸成し、説得力を増すことができます。
一方、人間は、与えられた個人情報を効果的に活用することが難しく、時には逆効果になることもあります。人間は、個人情報を利用する際に、倫理的な懸念を抱いたり、情報の解釈や適用に悩んだりする可能性があります。また、個人情報を不適切に使用してしまい、相手に不快感を与えてしまうリスクもあります。
LLMは、これらの人間の弱点を持たずに、個人情報を効率的かつ効果的に利用して説得力のある議論を展開できるのです。
nishio.iconどのような実験をして、個人情報を利用した場合にどのような定量的な結果が出た?
claude.iconこの研究では、4つの実験条件を設定し、個人情報の利用が説得力に与える影響を定量的に評価しました。
人間対人間(個人情報なし)
人間対AI(個人情報なし)
人間対人間(個人情報あり)
人間対AI(個人情報あり)
実験の流れは以下の通りです:
参加者は、demografic surveyに回答し、個人情報を提供。
参加者は、4つの条件のいずれかにランダムに割り当てられ、特定のトピックについて議論。
議論の前後で、参加者は自分の意見をLikert尺度で評価。
議論相手の意見に同意するかどうかの変化を、説得力の指標として使用。
実験の結果、以下のような定量的な結果が得られました:
個人情報を利用したGPT-4は、人間対人間の条件と比較して、相手の意見への同意度が高くなる確率が81.7%増加。
個人情報を利用しないGPT-4も、人間よりも説得力が高い傾向があったが、その効果は小さく、統計的に有意ではなかった(+21.3%, p=0.31)。
人間が個人情報を利用した場合、説得力が低下する傾向があったが、統計的に有意ではなかった(-17.4%, p=0.38)。
これらの結果から、LLMは個人情報を効果的に利用して説得力を高められるが、人間はそれが難しいことが定量的に示されました。特に、個人情報を利用したGPT-4は、人間対人間の条件と比べて有意に説得力が高いことが明らかになりました。